Attribution d'auteur par ensembles de séparateurs

نویسنده

  • Jacques Savoy
چکیده

The authorship attribution problem can be viewed as a categorization problem. To discriminate between different writers (or categories), we must first select a list of useful features (word types in this study), and then we train our classifier. To improve effectiveness, we can consider an ensemble of models instead of a single classifier (bagging). In the current study, we propose two forms of variation: varying the author profiles on the one hand, and on the other, varying the list of selected features. To compare the effectiveness of these solutions, we have extracted two corpora from the Glasgow Herald written by five columnists, the first one is on sports (1,948 articles), and the second on politics (987 articles). Using the KLD model (Zhao & Zobel, 2007), we found that a simple classification scheme tends to produce results comparable to those obtained from using more complex ones. MOTS-CLÉS : Méthode d’ensemble, attribution d'auteur, catégorisation de textes.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Un nouvel algorithme de forêts aléatoires d'arbres obliques particulièrement adapté à la classification de données en grandes dimensions

Résumé. L’algorithme des forêts aléatoires proposé par Breiman permet d’obtenir de bons résultats en fouille de données comparativement à de nombreuses approches. Cependant, en n’utilisant qu’un seul attribut parmi un sous-ensemble d’attributs tiré aléatoirement pour séparer les individus à chaque niveau de l’arbre, cet algorithme perd de l’information. Ceci est particulièrement pénalisant avec...

متن کامل

Identification Biométrique des Individus par leurs Empreintes Palmaires «Palmprints»: Classification par la Méthode des Séparateurs à Vaste Marge (SVM)

Résumé. L’identification des individus par leurs empreintes palmaires (Palmprints), considérée comme nouveau membre de la famille des modalités biométriques, est devenue un domaine de recherche très actif durant ces dernières années. Les travaux réalisés, jusqu’à présent, se sont basés sur les techniques de représentation des images de palmprints pour une meilleure classification. Dans notre tr...

متن کامل

Séparateurs à Vaste Marge Optimisant la Fonction Fbeta

Dans cet article, nous introduisons une nouvelle paramétrisation des Séparateurs à Vaste Marge (SVM) appelée Fβ SVM. Cette dernière permet d’effectuer un apprentissage basé sur l’optimisation de la fonction Fβ au lieu de l’erreur de classification habituelle. Les expériences montrent les avantages d’une telle démarche par rapport à la formulation soft-margin standard (avec les écarts à la marge...

متن کامل

Apprentissage de SVM sur Données Bruitées

Après avoir exhibé un exemple basique montrant que les SVM à marges douces (CSVM) ne sont pas tolérantes au bruit de classification uniforme, nous proposons une version modifiée de CSVM basée sur une fonction objectif utilisant un estimateur des slack variables du problème non bruité. Les bonnes propriétés de cet estimateur sont appuyées par une analyse théorique ainsi que par des simulations n...

متن کامل

Disease, fire and water in the nineteenth century city: a bibliography.

Ce document est protégé par la loi sur le droit d'auteur. L'utilisation des services d'Érudit (y compris la reproduction) est assujettie à sa politique d'utilisation que vous pouvez consulter en ligne. Cet article est diffusé et préservé par Érudit. Érudit est un consortium interuniversitaire sans but lucratif composé de l'Université de Montréal, l'Université Laval et l'Université du Québec à M...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2013